草庐IT

相当于 PyQuery 或 Nokogiri 的 PHP?

全部标签

ruby - 使用 Nokogiri 替换时的编码问题

我有这个代码:#encoding:utf-8require'nokogiri's="CaféVerona".encode('UTF-8')puts"Originalstring:#{s}"@doc=Nokogiri::HTML::DocumentFragment.parse(s)links=@doc.css('a')only_text='CaféVerona'.encode('UTF-8')puts"Replacementtext:#{only_text}"links.first.replace(only_text)puts@doc.to_html但是,输出是这样的:Originals

python - Ruby 是否有相当于 Python 的扭曲框架作为网络抽象层?

据我了解,Python的扭曲框架为网络通信提供了更高级别的抽象(?)。我正在寻找在Rails应用程序中使用与twisted等效的Ruby。 最佳答案 看看EventMachine.它不像Twisted那样广泛,但它是围绕事件驱动网络编程的相同概念构建的。 关于python-Ruby是否有相当于Python的扭曲框架作为网络抽象层?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/9

ruby - 使用 Nokogiri 进行模式验证

我正在尝试使用Nokogiri根据十几个模式验证XML文档。目前我有一个导入所有其他模式的根模式文档,我对此进行了验证。我能否从XML文件本身指向每个模式文件,并让Nokogiri在XML文件中查找模式以进行验证? 最佳答案 引用多个模式以验证XML文件的正确方法是使用schemaLocation属性:对于文档中的每个namespace,您列出了一对以空格分隔的值:namespaceURI后跟关于在哪里可以找到该namespace的架构的“提示”。如果您为每个提示提供完整的URI,那么您可以像这样使用Nokogiri进行处理:req

Ruby 相当于 "grep -C 5"以获取匹配项周围的行的上下文?

我搜索了一下,但我一定是使用了错误的术语-ruby​​是否有办法grep查找字符串/正则表达式并返回周围的5行(上方和下方)?我知道我可以调用"grep-C5..."或什至编写我自己的方法,但这似乎是ruby​​应该有的东西,我只是没有使用正确的搜索词。 最佳答案 您可以使用正则表达式来完成。这是我们要搜索的字符串:s=%{ThefirstlineThesecondlineThethirdlineThefourthlineThefifthlineThesixthlineTheseventhlineTheeightlineThenin

ruby - 如何使用Nokogiri和XPath获取具有多个属性的节点

我正在尝试使用Nokogiri来解析带有一些相当古怪的标记的HTML文件。具体来说,我正在尝试获取同时定义了id、多个类和样式的div。标记看起来像这样:titleListofstuff我正在尝试获取里面的问题.我可以毫无问题地获得具有单个id属性的div,但我想不出一种方法让Nokogiri获取具有和两个id类的div。所以这些工作正常:content=@doc.xpath("//div[id='foo']")content=@doc.css('div#foo')但是这些不返回任何东西:content=@doc.xpath("//div[id='bar']")content=@doc

ruby - 使用 Nokogiri 从 HTML 获取父元素

我有以下HTML,我想获取文档中的父项。我使用Nokogiri进行解析:j_text="abcpqr>examplefindbyIDzzzznnnnnsfds"我做到了:doc=Nokogiri::HTML(j_text)现在我想要来自HTML文本上方的父元素,即,,,使用Nokogiri,我该怎么做? 最佳答案 当您在Nokogiri中加载该HTML片段时,它会自动将元素插入到具有嵌套“body”元素的根级“html”元素中。因此,您提供的HTML片段中节点的父级将是“正文”:doc=Nokogiri::HTML(j_text)d

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby​​来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

ruby - 在 Ruby 中使用 Nokogiri 解析 HTML

使用此HTML代码:....................如何使用Nokogiri选择类为1的第二个或第三个div? 最佳答案 您可以使用Ruby将大型结果集缩减为特定项目:page.css('div.one')[1,2]#Twoitemsstartingatindex1(2nditem)page.css('div.one')[1..2]#Itemswithindicesbetween1and2,inclusive因为Ruby索引从零开始,所以你必须注意你想要的项目。或者,您可以使用CSS选择器来查找nthitem:#Second

ruby - 我们可以一起使用 selenium-webdriver 和 nokogiri 吗?

我使用Nokogiri如下:require'nokogiri'require'open-uri'#GetaNokogiri::HTML::Documentforthepagewe’reinterestedin...doc=Nokogiri::HTML(open('http://www.google.com/search?q=sparklemotion'))但是我不好,可能是由于公司的防火墙,我得到了错误:C:/Ruby193/lib/ruby/1.9.1/net/http.rb:762:in`initialize':getaddrinfo:Nosuchhostisknown.(Sock

ruby - 通过 Nokogiri 获取可见的文本词

我想用Nokogiri打开一个网页,提取用户在浏览器中访问该页面时看到的所有词,并分析词频。使用nokogiri从html文档中获取所有可读单词的最简单方法是什么?理想的代码片段应该是一个html页面(比如一个文件),并给出一组来自所有类型可读元素的单个单词。(无需担心javascript或css隐藏元素并因此隐藏单词;所有设计用于显示的单词都可以。) 最佳答案 你想要Nokogiri::XML::Node#inner_text方法:require'nokogiri'require'open-uri'html=Nokogiri::H